ACMMM2022|首个针对跨语言跨模态检索的噪声鲁棒研究工作

作者：倪好蛋蛋小猪 | 来源：互联网 | 2023-10-13 12:22

作者:王雅冰方向:多模态学习论文：Cross-LingualCross-ModalRetrievalwithNoise-RobustLearning录取：

作者: 王雅冰
方向: 多模态学习

论文&＃xff1a;Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning

录取&＃xff1a;MM&＃39;22 (CCF A)

链接&＃xff1a;https://arxiv.org/pdf/2208.12526.pdf

代码: https://github.com/LiJiaBei-7/nrccr

虽然目前传统的跨模态检索工作已取得了巨大的进展&＃xff0c;但由于缺少低资源语言的标注数据&＃xff0c;这些工作通常关注于高资源语言&＃xff08;比如英语&＃xff09;&＃xff0c;因此极大地限制了低资源语言在该领域的发展。为了解决这一问题&＃xff0c;作者针对跨语言跨模态检索任务&＃xff08;CCR&＃xff09;展开了研究&＃xff0c;该任务旨在仅使用人工标注的视觉-源语言&＃xff08;如英语&＃xff09;语料库对模型进行训练&＃xff0c;使其可以适用于其他目标语言&＃xff08;非英语&＃xff09;进行评估【如下图所示】。

传统跨模态检索&跨语言跨模态检索&＃xff08;CCR&＃xff09;

在这篇论文中&＃xff0c;作者旨在借助机器翻译来生成伪视觉-目标语言对进行跨语言迁移&＃xff0c;来缓解人工标注多语言视觉-语言语料库困难的问题。虽然机器翻译可以快速的处理大量的文本语言转换&＃xff0c;但是其准确性并不能得到保证&＃xff0c;因此在翻译过程中将会引入大量的噪声&＃xff0c;导致翻译的目标语言句子并不能准确的描述其对应的视觉内容【如下图所示】。

然而之前的基于机器翻译的CCR工作大多忽略了这个问题&＃xff0c;它们通常使用大规模的预训练模型在通过机器翻译得到的大规模多语言视觉-语言语料库上进行大规模预训练&＃xff0c;并且只关注于视觉-目标语言数据对之间的对齐。然而直接在这种噪声数据对上应用跨模态匹配将会严重影响检索性能&＃xff0c;神经网络模型有很强的能力来拟合这种给定的(噪声)数据。为了解决这个问题&＃xff0c;作者提出了一个噪声鲁棒学习方法来缓解机器翻译中所引入的噪声问题&＃xff0c;该论文是首个关注于CCR任务中由机器翻译所引入噪声问题的工作。

方法

模型框架图

作者首先先引入了其「基线模型」

基线模型

视觉编码器&＃xff1a;给定一个视频&＃xff0c;使用预训练的2D CNN来提取视频特征序列&＃xff0c;然后输入到Transformer块中&＃xff0c;来增强帧间交互&＃xff0c;最终得到一个视频特征向量

文本编码器&＃xff1a;作者设计了一个双分支编码器&＃xff0c;分别又一个源语言分支和一个目标语言分支组成。每个语言分支都包含一个Transformer block 和一个预训练的mBERT backbone&＃xff0c;将源语言和目标语言分别输入到对应的分支中&＃xff0c;得到对应的源语言句子特征和目标语言句子特征

将以上三个特征分别映射到多语言多模态空间中

作者使用了传统的跨模态检索任务中常用的triplet ranking loss进行约束&＃xff1a;

噪声鲁棒的特征学习

基线模型只是简单的进行了跨语言跨模态对齐&＃xff0c;并没有对噪声进行处理&＃xff0c;接下来作者提出了多视图自蒸馏来生成pseudo-tagets以监督目标语言分支的学习

作者首先借助于cross-attention来生成一个相对干净的中间目标语言句子特征&＃xff0c;通过将源语言token序列作为query&＃xff0c;利用cross-attenion固有的性质&＃xff0c;对目标语言token序列进行过滤。

cross-attention权重示例图

如图3所示&＃xff0c;错误的单词(用红色标记)和源语言单词之间的注意权重被分配了低值。其过程表示如下&＃xff1a;

多视角自蒸馏

作者引入了基于相似度视角和基于特征视角的自蒸馏损失

基于相似度视角的自蒸馏&＃xff08;Similarity-based view&＃xff09;&＃xff1a;

给定&＃xff08;V, S, T&＃xff09;&＃xff0c;默认其两两之间互为匹配对&＃xff0c;忽视翻译得到的目标语言句子T中所包含噪声的事实。对此&＃xff0c;作者将cross-attention所生成的特征作为teacher&＃xff0c;使用特征和视觉特征计算计算得到一个soft pseudo-targets作为目标语言分支的监督

soft pseudo-targets示例图

基于特征视角的自蒸馏&＃xff08;Feature-based view&＃xff09;&＃xff1a;

通过l1范式实现特征蒸馏

循环语义一致性

受无监督机器翻译的启发&＃xff0c;作者引入了循环语义一致性模块&＃xff0c;提高源语言分支从噪声中提高原始语义信息的能力。增加源语言分支的鲁棒性。

语言无关特征学习

考虑到特定语言特征缺少跨语言迁移能力&＃xff0c;作者通过对抗学习的方式来训练模型学习语言无关特征。构建一个分类器F作为判别器来分辨输入特征是源语言还是目标语言&＃xff0c;判别器和特征编码器相互博弈&＃xff1a;

训练和测试

最终的目标函数为&＃xff1a;

测试时作者采用了目标语言和翻译的源语言&＃xff08;由于测试时只使用目标语言&＃xff09;加权和的方式&＃xff1a;

实验

作者在三个跨语言跨模态数据集上进行了实验对比&＃xff0c;其中为两个多语言视频文本检索数据集&＃xff08;VATEX和MSRVTT-CN&＃xff09;&＃xff0c;一个多语言图像文本检索&＃xff08;Multi30K&＃xff09;&＃xff1b;其中MSRVTT-CN是作者对MSRVTT进行中文扩展得到的多语言数据集

在VATEX数据集上进行SOTA对比实验

MSRVTT-CN上性能对比

Multi30K上进行性能对比实验

鲁棒分析实验

为了进一步证明模型对抗翻译噪声的鲁棒能力&＃xff0c;作者通过增加翻译次数以进一步增加训练数据的噪声程度&＃xff0c;如图所示&＃xff0c;在经过多次翻译后&＃xff0c;基线模型的性能明显下降&＃xff0c;而本文所提出的模型性能更加的稳定&＃xff0c;验证了噪声鲁棒特征学习的有效性

将目标语言句子根据句子长度进行分组&＃xff0c;作者假设越长的句子&＃xff0c;翻译越困难&＃xff0c;因此包含的噪声可能更多。结果表明&＃xff0c;本文所提出的模型和基线模型的性能差距随着句子长度的增加而增加。

t-SNE可视化实验

作者随机从VATEX的中文测试集中随机选择20个样本&＃xff0c;其中每个样本包含10个对应的英语翻译句子和一个对应的视频。如图所示&＃xff0c;NRCCR的类内特征更加的紧凑&＃xff0c;表明了模型更好的学习到了跨语言跨模态对齐。

消融实验

结果表明&＃xff0c;使用两个视角&＃xff0c;性能得到了提升&＃xff0c;表明基于相似度视角和基于特征视角彼此互补。引入循环语义一致性后&＃xff0c;实现了额外的性能收益。此外&＃xff0c;还表明了语言无关特征学习的重要性

&＃x1f4dd;论文解读投稿&＃xff0c;让你的文章被更多不同背景、不同方向的人看到&＃xff0c;不被石沉大海&＃xff0c;或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

武汉大学提出&＃xff1a;用于基于统一Aspect的情感分析的关系感知协作学习

COLING&＃39;22 | SelfMix&＃xff1a;针对带噪数据集的半监督学习方法

中山大学&阿里巴巴提出&＃xff1a;用于基于Aspect的情感分析的关系图注意网络(GAT)

投稿或交流学习&＃xff0c;备注&＃xff1a;昵称-学校&＃xff08;公司&＃xff09;-方向&＃xff0c;进入DL&NLP交流群。

方向有很多&＃xff1a;机器学习、深度学习&＃xff0c;python&＃xff0c;情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注~

推荐阅读

function
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
tree
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
tree
资源推荐 | TensorFlow官方中文教程助力英语非母语者学习

来源：机器之心。本文详细介绍了TensorFlow官方提供的中文版教程和指南，帮助开发者更好地理解和应用这一强大的开源机器学习平台。 ... [详细]

蜡笔小新 2024-12-28 09:00:51
string
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
function
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
function
信用评分卡的Python实现与评估

本文介绍如何使用Python构建和评估信用评分卡模型，涵盖数据预处理、模型训练及验证指标选择。附带详细代码示例和视频教程链接。 ... [详细]

蜡笔小新 2024-12-25 10:16:23
function
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
function
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
object
2017年人工智能领域的十大里程碑事件回顾

随着2018年的临近，我们一同回顾过去一年中人工智能领域的重要进展。这一年，无论是政策层面的支持，还是技术上的突破，都显示了人工智能发展的迅猛势头。以下是精选的2017年人工智能领域最具影响力的事件。 ... [详细]

蜡笔小新 2024-12-16 17:59:16
object
地球坐标、火星坐标及百度坐标间的转换算法 C# 实现

本文介绍了WGS84坐标系统及其精度改进历程，探讨了火星坐标系统的安全性和应用背景，并详细解析了火星坐标与百度坐标之间的转换算法，提供了C#语言的实现代码。 ... [详细]

蜡笔小新 2024-12-15 20:11:43
function
导航栏样式练习：项目实例解析

本文详细介绍了如何创建一个具有动态效果的导航栏，包括HTML、CSS和JavaScript代码的实现，并附有详细的说明和效果图。 ... [详细]

蜡笔小新 2024-12-27 19:42:28
config
ASP.NET MVC中Area机制的实现与优化

本文探讨了在ASP.NET MVC框架中，如何通过Area机制有效地组织和管理大规模应用程序的不同功能模块。通过合理的文件夹结构和命名规则，开发人员可以更高效地管理和扩展项目。 ... [详细]

蜡笔小新 2024-12-25 22:53:48
config
亚马逊Go：无人零售的创新与挑战

本文探讨了亚马逊Go如何通过技术创新推动零售业的发展，以及面临的市场和隐私挑战。同时，介绍了亚马逊最新的‘刷手支付’技术及其潜在影响。 ... [详细]

蜡笔小新 2024-12-13 11:39:37
config
深入浅出：神经网络中的分类器实例解析

在上一篇文章中，我们初步探讨了神经网络的基础概念，并通过一个简单的例子——将摄氏度转换为华氏度——介绍了单个神经元的工作原理。本文将继续探索神经网络的应用，特别是如何构建一个基本的分类器。 ... [详细]

蜡笔小新 2024-12-12 12:45:45
function
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新 2024-12-12 10:47:15

倪好蛋蛋小猪

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章